데이터분석 준전문가 기출문제 문제은행 - 뉴비티::새로운 CBT 문제풀이 시스템

데이터 이해

1. 다음 중 사회 기반 구조로서의 데이터베이스는 무엇인가?

1
ERP
2
NEIS
3
KMS
4
RTE

2. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?

1
통합 - 저장 - 공유 - 변화
2
저장 - 통합 - 변화 - 공유
3
공유 - 저장 - 통합 - 변화
4
변화 - 통합 - 저장 - 공유

3. 다음 중 빅데이터 분석의 특징에 대한 설명으로 옳지 않은 것은?

1
데이터가 방대하다고 무조건 더 좋은 가치를 창출하는 것은 아니다.
2
데이터 크기가 커질수록 더 많은 분석을 수행하는 것이 경쟁 우위 확보의 원천이다.
3
분석적 방법과 성과에 대한 이해 부족은 빅데이터 과제에 대한 걸림돌이다
4
비즈니스의 핵심에 더욱 객관적이고 통찰력 있는 데이터를 추출하는 것이 중요하다.

4. 다음 중 빅데이터 위기 요인과 해결 방안이 잘못 연결 된 것을 고르시오.

가) 사생활 침해 -> 동의제를 책임제로 전환
나) 책임 원칙의 훼손 -> 알고리즘 허용
다) 데이터의 오용 -> 결과 기반 책임 원칙

1
가,나
2
가,다
3
나,다
4
가,나,다

5. 다음 중 데이터베이스의 특징에 대한 설명으로 잘못된 것은 무엇인가?

1
통합된 데이터: 데이터 중복을 허용함의 의미한다
2
저장된 데이터: 컴퓨터와 같은 전자기기가 접근할 수 있는 매체에 저장되는 것을 의미한다
3
공용 데이터: 여러 사용자가 공동의 목적을 위해 사용하는 데이터임을 의미한다
4
변화하는 데이터: 항상 최신의 정확한 상태를 유지해야 함을 의미한다

6. 데이터 사이언티스트가 갖추어야 하는 역량 중 소프트 스킬에 해당하지 않는 것은?

1
통찰력 있는 분석
2
다분야간 협력
3
설득력 있는 전달
4
빅데이터 이론적 지식

7. 사생활 침해 방지 기술에 해당하는 것으로 개인 식별 정보를 삭제하거나 알아 볼 수 없는 형태로 변환하는 포괄적 기술로 올바른 것은?

1
익명화
2
데이터 마스킹
3
가명
4
데이터 값 삭제

8. 다음 중 빅데이터의 (미래) 가치 패러다임 변화 순서로 알맞은 것은?

가. Connection
나. Agency
다. Digitalization

1
가-나-다
2
가-다-나
3
다-가-나
4
다-나-가

9. 빅데이터가 가져온 변화로 맞지 않은 것은?

1
서비스 산업이 확대되고 제조업의 생산성이 감소되었다.
2
빅데이터 시대에는 데이터 획득 비용이 기하급수적으로 감소하고 모든 곳에서 데이터가 넘쳐나 사용자 전수조사가 가능해졌다.
3
가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
4
데이터의 질보다 양을 강조하게 되었다.

10. 사생활 침해 문제를 해결하기 위한 방법으로 가장 적절한 것은 무엇인가?

1
개인정보 사용자 책임제로 전환
2
결과기반 책임 원칙 고수
3
알고리즘 접근 허용
4
사용자 동의제도 시행

데이터분석 기획

11. 빅데이터 분석 방법론에서 분석 기획 단계의 Task로 적절하지 않은 것은?

1
비즈니스 이해 및 범위 설정
2
프로젝트 정의 및 계획 수립
3
프로젝트 위험 계획 수립
4
필요 데이터 정의

12. 데이터 분석 준비도 프레임워크에서 운영 시스템 데이터 통합, EAI ETL등 데이터 유통체계 분석 및 전용 서버 및 스토리지, 빅데이트 분석 환경, 비주얼 분석 환경 등과 관련된 항목은 무엇인가?

13. 데이터 분석 과제에서 분석 프로젝트 관리에 대한 설명 중 틀린 것은?

1
분석 과제는 분석 전문가의 상상력을 요구하므로 일정을 제한하는 일정 계획은 적절하지 못하다.
2
분석 과제는 적용되는 알고리즘에 따라 범위가 변할 수 있어 범위 관리가 중요하다.
3
분석 과제에서 다양한 데이터를 확보하는 경우가 있어 조달관리 또한 중요하다.
4
분석 과제에는 많은 위험이 있어 사전에 위험을 식별하고 대응 방안을 수립해야 한다.

14. 다음 중 분석방법(How)은 알고 있으나, 분석의 대상(What)을 모르는 경우의 분석 주제 유형으로 적합한 것은?

1
최적화(Optimization)
2
통찰(Insight)
3
솔루션(Solution)
4
발견(Discovery)

15. 데이터 마이닝 프로세스에서 모델링 기법에 따라 변수를 정의하고 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 적합한 형식으로 변환하는 활동 수행 단계는 무엇인가?

1
데이터 가공
2
데이터 준비
3
모델 검증
4
데이터 마이닝 기법 적용

16. 다음 분석과제의 특징 중 Accuracy와 Precision에 대한 설명으로 틀린 것은?

1
분석의 활용적인 측변에서는 Precision이 중요하며, 안정적인 측면에서는 Accuracy가 중요하다.
2
Accuracy와 Precision의 관계는 트레이드 오프가 되는 경우가 많다.
3
Accuracy는 모델과 실제 값의 차이에 대한 것이다.
4
Precision은 모델을 반복했을 때의 편차를 의미한다.

17. 다음 중 데이터 표준화에 대한 설명으로 올바른 것은?

1
메타 데이터와 데이터 사전의 관리 원칙을 수립한다.
2
데이터 표준 용어 설정, 명명 규칙수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성된다.
3
메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다.
4
데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시한다.

18. 다음 분석과제 발굴의 접근방식에 대한 설명 중 옳지 않은 것은?

1
디자인 싱킹은 중요한 의사결정 시 상향식과 하향식을 반복적으로 사용하는 방법이다.
2
분석해야 하는 대상이 확실할 경우 상향식 접근 방식을 사용한다.
3
데이터를 활용하여 생각하지 못했던 인사이트를 도출하고 시행착오를 통해 개선해가는 상향식 접근법의 유용성이 점차 증가하고 있는 추세이다.
4
분석과제 발굴의 상향식과 하향식 접근법은 실제 분석 과정에서 혼용되어 활용되는 경우가 많다.

19. 합리적인 의사 결정을 방해하는 요소로써 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상을 무엇이라고 하는가?

20. 다음 중 분석 프로젝트의 영역별 주요 관리 항목으로 옳지 않은 것은?

1
시간(Time)
2
관계(Relationship)
3
범위(Scope)
4
원가(Cost)

데이터분석

21. 다음 빈칸에 알맞은 단어는?

완전 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 (           )을 측정한다.

22. 웹 데이터의 수집을 위해 웹페이지의 구조를 분석하여 데이터를 자동으로 수집하는 방법을 무엇이라고 하는가?

1
FTP
2
웹 크롤링(Web Crawling)
3
Streaming
4
Open API

23. 자료의 척도에 대한 설명으로 적절하지 않은 것은?

1
비율척도 - 사칙연산이 모두 가능하고, 혈액형, 학력 등이 해당된다.
2
구간척도 - 덧셈, 뺄셈이 가능하고 절대 0점을 포함하지 않는 온도가 이에 해당된다.
3
서열척도 - 연산이 불가능하고 메달과 같이 범주간 순서가 있는 것이 이에 해당된다.
4
명목척도 - 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 사용된다.

24. 오렌지 데이터에 대한 산점도 관련 설명으로 틀린 것은?

1
양의 상관 관계임을 알 수 있다.
2
Circumference 데이터는 10 ~ 230 정도의 범위 인 것을 알 수 있다.
3
종별로 관계를 나타낼 수 있다.
4
Age 데이터는 10 ~ 1600 정도의 범위인 것을 알 수 있다.

25. 차원 축소 기법 중, 객체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이의 군집을 시각적으로 표현하는 기법은 무엇인가?

26. 다음은 TV광고수에 따른 Sales에 대한 산점도이다. 이에 대한 설명으로 맞지 않은 것은?

1
TV 광고가 증가할 수록 Sales도 증가하는 경향이 있다.
2
TV광고와 Sales는 양의 상관관계를 가진다.
3
tv광고가 증가할수록 Sales의 분산은 동일하다
4
Sales를 설명하기 위해 TV광고를 독립변수로 하는 단순선형회귀모델은 적절하다

27. 다차원척도법에 대한 설명으로 가장 적절하지 않은 것은 무엇인가?

1
개체들의 거리는 유클리드(Euclidean) 거리와 유사도를 이용하여 구한다.
2
관측 대상의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)로 나타낸다.
3
스트레스 값은 0에 가까울수록 적합도가 좋음을 나타낸다.
4
개체들 사이의 유사성과 비유사성을 측정하여 차원을 축소하기 위해 사용한다.

28. 신경망 모형에서 출력값이 여러 개이고 목표치가 다범주인 경우에 사용하는 것으로 각 범주에 속할 사후 확률을(posterior probability) 제공하는 활성화 함수는 무엇인가?

1
항등 함수
2
ReLU
3
sigmoid
4
softmax

29. Lasso 회귀 모형의 정의로 옳지 않은 것은?

1
모형에 포함된 회귀계수의 절댓값이 클수록 Penalty를 부여하는 방식이다.
2
람다값(lambda)으로 penalty의 정도를 조정한다.
3
자동적으로 변수 선택을 하는 효과가 있다.
4
L₂ norm을 사용하여 penalty를 부여한다

30. 텍스트마이닝 관련 설명으로 올바르지 않은 것은?

1
자연어처리(NLP) 방식으로 특징 추출, 요약,분류,군집화 등 의미를 도출하는 분석이다.
2
비구조화된 텍스트에서 구조화된 데이터로 변환하는 방법을 코퍼스라고 한다.
3
텍스트 마이닝 전처리 작업에는 클렌징, 토큰화, 불용어 제거, 어간 추출, 표제어 추출 등이 있다.
4
감정 분석 및 워드 클라우드 등의 패턴 분석을 할 수 있다.

31. 이산확률변수 X가 가능한 값으로 1,2,4 가 있다. P(X=1) = 0.3 이고 기댓값이 2.7 일 때 P(X=2)는 무엇인가?

32. 다음 이산형 확률 분포의 확률 변수 x에 대한 설명 중 적절한 것은 무엇인가?

1
확률변수 x의 확률의 합은 1보다 작거나 클 수 있다.
2
확률변수 x가 0이거나 4일 확률은 0이 아니다.
3
확률변수 x에 대한 기댓값은 13/6 이다.
4
확률변수 x가 1이거나 2일 확률은 5/6이다.

33. 인공신경망 관련 알고리즘 중 다음 설명은 어떤 것을 말하는가?

지도 학습에서 신경망을 학습 시키는 방법으로, 출력층에서 제시한 값에 대해, 실제 원하는 값으로 학습하는 방법으로 사용되고, 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용되는 알고리즘이다.

34. 확률에 대한 설명으로 가장 적합하지 않은 것은?

1
각 사건의 확률은 0~1이다.(확률은 0이상의 값을 가진다.)
2
표본 공간(S)에서 발생 가능한 모든 사건의 확률의 합은 1이다.
3
A와 B가 독립 사건인 경우, 각 독립사건들의 확률의 합은 합집합의 확률과 동일하다.
4
전체 표본 중 독립적인 것을 근원 사건이라 한다.

35. 모집단을 먼저 서로 겹치지 않는 여러개의 층으로 분할한 후, 각 층에서 단순 임의 추출법에 따라 배정된 표본을 추출하는 방법

36. CART에서 쓰이는 불순도 측정 지표로 데이터의 통계적 분산 정도를 정량화해서 표현한 값은 무엇인가

37. 다음 표를 사용한 재현율에 관련된 설명으로 틀린것은?

1
age 변수는 wage에 대해 유의하지 않다
2
종속변수는 wage이다
3
jobclass는 범주형 변수이다
4
데이터 개수가 3000개이다.

38. 신경망 모형에서 입력 받은 데이터를 다음 층(Layer)으로 출력하는 형태를 결정하는 함수를 무엇이라고 하는가?

1
활성화 함수(activation function)
2
로짓 함수
3
오즈비 함수
4
매핑 함수

39. 다음 설명에 해당하는 것은 무엇인가?

공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로, 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.

1
요인 분석
2
회귀 분석
3
주성분 분석(PCA)
4
다차원척도법

40. 앙상블 기법에 대한 설명으로 알맞은 것은?

1
앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.
2
대표적인 앙상블 기법은 배깅, 부스팅이 있다.
3
전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다.
4
랜덤 포레스트는 앙상블 기법 중 유일한 비지도 기법이다.

41. 다음 중 두 좌표 A,B간의 유클리드 거리(Euclidean Distance)는?

　　　　A　:　B
키　　: 175  :　180
몸무게:   70   : 　65

1
10
2
50
3
√10
4
√50

42. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 알고리즘을 무엇이라고 하는가?

43. 수면 유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?

1
수면유도제 2가 수면유도제 1보다 효과적이다.
2
유의수준 0.05하에서 두 집단의 평균이 동일하다는 귀무가설을 채택할 수 있다.
3
두 개의 표본 집단이 크기가 클경우(N>30) 집단의 정규성 검증없이 이 표본 t검정을 사용할 수 있다.
4
독립표본 t검정 분석 전에 등분산 검정을 실시한다.

44. 파생 변수에 대한 설명으로 옳지 않은 것은?

1
요약 통계량을 이용한 변수 생성을 통해 데이터 분석이 가능하다.
2
데이터에 포함된 나이 연속형 변수를 이용해 연령대 범주형 파생 변수를 추가했다.
3
파생 변수를 해당 데이터셋을 대표하는 변수로 사용할 수 있다.
4
파생 변수는 매우 주관적일 수 있으므로, 논리적 타당성을 갖추어 개발해야 한다.

45. 군집 분석에 대한 설명으로 잘못된 것은?

1
형성된 군집에 대해 논리성보다 안정성이 더 중요하다.
2
비지도학습으로 군집간 분산 최대화, 군집내 분산을 최소화 한다.
3
집단별 특성이 유사할 경우 안정성이 높을 수 있다.
4
유사성을 이용하여 몇 개의 집단으로 그룹화하는 분석이다.

46. 시그모이드 함수의 범위로 알맞은 것은?

1
0~1
2
-1~1
3
-1~0
4
0.5~1

47. 다음 주성분 분석에 대한 설명 중 적절하지 않은 것은?

1
가장 분산이 적은 것을 제 1주성분으로 설정한다.
2
주성분 분석은 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합을 해 변수를 축약하는데 사용하는 방법이다.
3
공분산 행렬은 변수의 특정단위를 그대로 반영한 것이고, 상관 행렬은 모든 변수의 측정단위를 표준화 한 것이다.
4
공분산 행렬을 이용한 분석의 경우 변수들의 측정 단위에 민감하다.

48. 다음 중 과대 적합 방지를 위한 방법이 아닌 것은 무엇인가?

1
배깅(bagging)
2
홀드 아웃(Hold-out)
3
의사결정 나무
4
Lasso, Ridge 모델

49. 다음 중 K-Fold 교차검증에 대한 내용으로 옳지 않은 것은?

1
K=2인 경우, LOOCV라고 한다.
2
주어진 데이터를 가지고 K번 반복적으로 성과를 측정해 그 결과를 평균한다.
3
K-Fold는 데이터를 K개로 분할하는 것을 의미한다.
4
데이터가 충분하지 않은 경우 주로 사용한다.

50. 의사결정 나무에 대한 설명 중 적절하지 않은 것은?

1
비지도 학습으로 상향식 접근 방법을 이용한다.
2
구조가 단순하여 해석이 용이하다
3
목표 변수가 이산형인 경우 분류나무, 목표변수가 연속형인 경우 회귀나무가 있다.
4
부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성해 나간다.

데이터분석 준전문가 랜덤

데이터 이해

1. 다음 중 사회 기반 구조로서의 데이터베이스는 무엇인가?

2. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?

3. 다음 중 빅데이터 분석의 특징에 대한 설명으로 옳지 않은 것은?

4. 다음 중 빅데이터 위기 요인과 해결 방안이 잘못 연결 된 것을 고르시오.

5. 다음 중 데이터베이스의 특징에 대한 설명으로 잘못된 것은 무엇인가?

6. 데이터 사이언티스트가 갖추어야 하는 역량 중 소프트 스킬에 해당하지 않는 것은?

7. 사생활 침해 방지 기술에 해당하는 것으로 개인 식별 정보를 삭제하거나 알아 볼 수 없는 형태로 변환하는 포괄적 기술로 올바른 것은?

8. 다음 중 빅데이터의 (미래) 가치 패러다임 변화 순서로 알맞은 것은?

9. 빅데이터가 가져온 변화로 맞지 않은 것은?

10. 사생활 침해 문제를 해결하기 위한 방법으로 가장 적절한 것은 무엇인가?

데이터분석 기획

11. 빅데이터 분석 방법론에서 분석 기획 단계의 Task로 적절하지 않은 것은?

12. 데이터 분석 준비도 프레임워크에서 운영 시스템 데이터 통합, EAI ETL등 데이터 유통체계 분석 및 전용 서버 및 스토리지, 빅데이트 분석 환경, 비주얼 분석 환경 등과 관련된 항목은 무엇인가?

13. 데이터 분석 과제에서 분석 프로젝트 관리에 대한 설명 중 틀린 것은?

14. 다음 중 분석방법(How)은 알고 있으나, 분석의 대상(What)을 모르는 경우의 분석 주제 유형으로 적합한 것은?

15. 데이터 마이닝 프로세스에서 모델링 기법에 따라 변수를 정의하고 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 적합한 형식으로 변환하는 활동 수행 단계는 무엇인가?

16. 다음 분석과제의 특징 중 Accuracy와 Precision에 대한 설명으로 틀린 것은?

17. 다음 중 데이터 표준화에 대한 설명으로 올바른 것은?

18. 다음 분석과제 발굴의 접근방식에 대한 설명 중 옳지 않은 것은?

19. 합리적인 의사 결정을 방해하는 요소로써 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상을 무엇이라고 하는가?

20. 다음 중 분석 프로젝트의 영역별 주요 관리 항목으로 옳지 않은 것은?

데이터분석

21. 다음 빈칸에 알맞은 단어는?

22. 웹 데이터의 수집을 위해 웹페이지의 구조를 분석하여 데이터를 자동으로 수집하는 방법을 무엇이라고 하는가?

23. 자료의 척도에 대한 설명으로 적절하지 않은 것은?

24. 오렌지 데이터에 대한 산점도 관련 설명으로 틀린 것은?

25. 차원 축소 기법 중, 객체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이의 군집을 시각적으로 표현하는 기법은 무엇인가?

26. 다음은 TV광고수에 따른 Sales에 대한 산점도이다. 이에 대한 설명으로 맞지 않은 것은?

27. 다차원척도법에 대한 설명으로 가장 적절하지 않은 것은 무엇인가?

28. 신경망 모형에서 출력값이 여러 개이고 목표치가 다범주인 경우에 사용하는 것으로 각 범주에 속할 사후 확률을(posterior probability) 제공하는 활성화 함수는 무엇인가?

29. Lasso 회귀 모형의 정의로 옳지 않은 것은?

30. 텍스트마이닝 관련 설명으로 올바르지 않은 것은?

31. 이산확률변수 X가 가능한 값으로 1,2,4 가 있다. P(X=1) = 0.3 이고 기댓값이 2.7 일 때 P(X=2)는 무엇인가?

32. 다음 이산형 확률 분포의 확률 변수 x에 대한 설명 중 적절한 것은 무엇인가?

33. 인공신경망 관련 알고리즘 중 다음 설명은 어떤 것을 말하는가?

34. 확률에 대한 설명으로 가장 적합하지 않은 것은?

35. 모집단을 먼저 서로 겹치지 않는 여러개의 층으로 분할한 후, 각 층에서 단순 임의 추출법에 따라 배정된 표본을 추출하는 방법

36. CART에서 쓰이는 불순도 측정 지표로 데이터의 통계적 분산 정도를 정량화해서 표현한 값은 무엇인가

37. 다음 표를 사용한 재현율에 관련된 설명으로 틀린것은?

38. 신경망 모형에서 입력 받은 데이터를 다음 층(Layer)으로 출력하는 형태를 결정하는 함수를 무엇이라고 하는가?

39. 다음 설명에 해당하는 것은 무엇인가?

40. 앙상블 기법에 대한 설명으로 알맞은 것은?

41. 다음 중 두 좌표 A,B간의 유클리드 거리(Euclidean Distance)는?

42. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 알고리즘을 무엇이라고 하는가?

43. 수면 유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?

44. 파생 변수에 대한 설명으로 옳지 않은 것은?

45. 군집 분석에 대한 설명으로 잘못된 것은?

46. 시그모이드 함수의 범위로 알맞은 것은?

47. 다음 주성분 분석에 대한 설명 중 적절하지 않은 것은?

48. 다음 중 과대 적합 방지를 위한 방법이 아닌 것은 무엇인가?

49. 다음 중 K-Fold 교차검증에 대한 내용으로 옳지 않은 것은?

50. 의사결정 나무에 대한 설명 중 적절하지 않은 것은?